最近的深度学习模型在言语增强方面已经达到了高性能。但是,获得快速和低复杂模型而没有明显的性能降解仍然是一项挑战。以前的知识蒸馏研究对言语增强无法解决这个问题,因为它们的输出蒸馏方法在某些方面不符合语音增强任务。在这项研究中,我们提出了基于特征的蒸馏多视图注意转移(MV-AT),以在时域中获得有效的语音增强模型。基于多视图功能提取模型,MV-AT将教师网络的多视图知识传输到学生网络,而无需其他参数。实验结果表明,所提出的方法始终提高瓦伦蒂尼和深噪声抑制(DNS)数据集的各种规模的学生模型的性能。与基线模型相比,使用我们提出的方法(一种用于有效部署的轻巧模型)分别使用了15.4倍和4.71倍(FLOPS),与具有相似性能的基线模型相比,Many-S-8.1GF分别达到了15.4倍和4.71倍。
translated by 谷歌翻译
现有研究突出物体检测(SOD)对专注于提取与边缘信息的不同对象和聚合多级功能来提高SOD性能。为了实现令人满意的性能,该方法采用精细的边缘信息和低多级差异。然而,不能实现性能增益和计算效率,这有动力研究了我们研究现有编码器解码器结构中的低效率,以避免这种权衡。我们提出了示踪剂,通过结合引导的跟踪模块来检测具有显式边缘的突出物体。我们使用快速傅里叶变换在第一编码器的末尾采用掩蔽边缘注意模块,以将精细边缘信息传播到下游特征提取。在多级聚合阶段,联盟注意力模块识别互补信道和重要的空间信息。为了提高解码器性能和计算效率,我们最大限度地减少了对对象注意模块的解码器块使用。该模块从精细通道和空间表示中提取未检测到的对象和边缘信息。随后,我们提出了一种自适应像素强度损失函数来处理与传统损耗函数不同的像素相对重要的像素,其同样处理所有像素。与13现有方法的比较显示,示踪剂在五个基准数据集上实现了最先进的性能。特别地,追踪性3(TE3)优于LDF,现有方法,同时需要1.8倍的学习参数,更少的时间; TE3速度快5倍。
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
图池是用于编码图中层次结构的关键操作。大多数现有的图形池方法将问题作为节点聚类任务提出,从而有效捕获图形拓扑。常规方法要求用户指定适当数量的簇作为超参数,然后假设所有输入图共享相同数量的簇。但是,在簇数可以变化的归纳设置中,该模型应能够表示其池层中的这种变化,以学习合适的簇。因此,我们提出了GMPool,这是一种新型可区分的图形池体系结构,该体系结构会根据输入数据自动确定适当数量的簇数。主要直觉涉及定义为合并操作员的二次形式的分组矩阵,该矩阵诱导了节点成对组合的二进制分类概率的使用。 GMPool首先计算分组矩阵,然后将其分解。对分子财产预测任务的广泛评估表明,我们的方法表现优于常规方法。
translated by 谷歌翻译
多年来,为各种对象检测任务开发了数据集。海事域中的对象检测对于船舶的安全和导航至关重要。但是,在海事域中,仍然缺乏公开可用的大规模数据集。为了克服这一挑战,我们提出了Kolomverse,这是一个开放的大型图像数据集,可在Kriso(韩国研究所和海洋工程研究所)的海事域中进行物体检测。我们收集了从韩国21个领土水域捕获的5,845小时的视频数据。通过精心设计的数据质量评估过程,我们从视频数据中收集了大约2,151,470 4K分辨率的图像。该数据集考虑了各种环境:天气,时间,照明,遮挡,观点,背景,风速和可见性。 Kolomverse由五个类(船,浮标,渔网浮标,灯塔和风电场)组成,用于海上对象检测。该数据集的图像为3840美元$ \ times $ 2160像素,据我们所知,它是迄今为止最大的公开数据集,用于海上域中的对象检测。我们进行了对象检测实验,并在几个预训练的最先进的架构上评估了我们的数据集,以显示我们数据集的有效性和实用性。该数据集可在:\ url {https://github.com/maritimedataset/kolomverse}中获得。
translated by 谷歌翻译
在本文中,我们提出了一个健壮的模仿学习(IL)框架,该框架在扰动环境动态时改善了IL的稳健性。在单个环境中训练的现有IL框架可能会因环境动力学的扰动而灾难性地失败,因为它无法捕获可以更改潜在环境动态的情况。我们的框架有效地处理了具有不同动态的环境,通过模仿了采样环境动力学中的多个专家,以增强环境动力学的一般变化中的鲁棒性。为了强力模仿多个样本专家,我们将代理商政策与每个样本专家之间的Jensen-Shannon分歧降低了风险。数值结果表明,与常规IL基准相比,我们的算法显着提高了针对动力学扰动的鲁棒性。
translated by 谷歌翻译
大多数最新的说话者验证架构都采用了多尺度处理和频道注意机制。这些模型的卷积层通常具有固定的内核大小,例如3或5。在本研究中,我们进一步为这一研究采用了选择性核心注意(SKA)机制。SKA机制允许每个卷积层以数据驱动的方式自适应地选择内核大小。它基于利用频率和通道域的注意机制。我们首先将现有的SKA模块应用于我们的基线。然后,我们提出了两个SKA变体,其中第一个变体在ECAPA-TDNN模型的前面应用,另一个变体与RES2NET骨干块结合使用。通过广泛的实验,我们证明了我们提出的两个SKA变体始终提高性能,并在三个不同的评估方案上进行测试时是互补的。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
在本文中,我们提出了自我监督的发言者表示学习策略,该策略包括在前端的引导平衡扬声器表示学习和在后端的不确定性意识的概率扬声器嵌入训练。在前端阶段,我们通过具有均匀性正则化术语的引导训练方案来学习扬声器表示。在后端阶段,通过最大化属于同一扬声器的语音样本之间的相互似然分数来估计概率扬声器嵌入,这不仅提供扬声器表示,而且提供数据不确定性。实验结果表明,拟议的举止均衡训练策略可以有效地帮助了解扬声器表示,并以基于对比学习的传统方法优越。此外,我们展示了集成的两级框架在eer和mindcf方面进一步改善了VoxceleB1测试中的扬声器验证性能。
translated by 谷歌翻译
人表皮生长因子受体2(HER2)生物标志物的免疫组织化学(IHC)染色在乳腺组织分析,临床前研究和诊断决策中广泛实践,指导癌症治疗和发病机制调查。 HER2染色需要由组织医学表演表演的艰苦组织处理和化学处理,这通常需要一天,以便在实验室中准备,增加分析时间和相关成本。在这里,我们描述了一种基于深度学习的虚拟HER2 IHC染色方法,其使用条件生成的对抗网络培训,训练以便将未标记/标记的乳房组织部分的自发荧光显微镜图像快速转化为明亮场当量的显微镜图像,匹配标准HER2 IHC染色在相同的组织部分上进行化学进行。通过定量分析证明了这一虚拟HER2染色框架的功效,其中三个董事会认证的乳房病理学家盲目地评级了HER2的几乎染色和免疫化化学染色的HER2整个幻灯片图像(WSIS),揭示了通过检查虚拟来确定的HER2分数IHC图像与其免疫组织化学染色的同类一样准确。通过相同的诊断师进行的第二种定量盲化研究进一步揭示了几乎染色的HER2图像在核细节,膜清晰度和染色伪像相对于其免疫组织化学染色的对应物的染色伪影等级具有相当的染色质量。这种虚拟HER2染色框架在实验室中绕过了昂贵,费力,耗时耗时的IHC染色程序,并且可以扩展到其他类型的生物标志物,以加速生命科学和生物医学工作流程的IHC组织染色。
translated by 谷歌翻译